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Виявлення текстових областей у в1деопосллдовностях 


В статье рассматривается задача обнаружения текстовых областей на неоднородном фоне в видео- 
последовательностях. Предлагается двухэтапная схема, алгоритм и методика обнаружения текстовых 
областей с использованием непрерывного вейвлет-преобразования с автоматическим выбором масштаба 
или итерационной обработкой с разными масштабами. 
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п Ше агафе, Фе ргоет оР{ех( теолоп даесвоп оп Фе поп-ипогт БасКогоипа т у14ео й’атез 1$ сопзаегеа. 'ТВе 
С\ло-5асе зспете, Ше ао т апа Ше {есбиюие оЁ а&есйоп о 1ехЕ ге1оп$ изше а сопбпиой$ ууауее шапзЮгт 
УЛ аиютайс зсае з@есноп ог Цегайоп ргосеззште аё ЧегепЕ зса!ез аге ророзед. 

Кеу У’ог45: (ехЕгеолоп а&есйоп, птасе ргосеззте, ппазе апа[уз1$. 


У статти розглядаеться задача виявлення текстових областей на неоднордному фон! в вдеопослдовности. 
Пропонуеться двоетапна схема, алгоритм 1 методика виявлення текстових областей з використанням 
безперервного вейвлет-перетворення з автоматичним вибором масштабу або 1теращйною обробкою з 
разними масштабами. 

Ключов! слова: виявлення текстових областей, обробка зображень, анал!з зображень. 


Введение 


Для обработки постоянно возрастающих объемов информации с мультимедийным 
контентом весьма актуальной является разработка методов и алгоритмов для информа- 
ционных систем индексации и семантического поиска информации. При обработке 
видеопоследовательностей часто приходится обнаруживать и распознавать текстовую 
информацию (например, номера железнодорожных вагонов, автомобилей, контейнеров, 
надписи на дорожных знаках или других объектах), которая может служить источником 
семантических признаков различных уровней. 

При анализе видеопоследовательностей различают искусственно добавленный 
текст и текст сцены. Добавленный текст содержит дополнительную информацию, связан- 
ную с видеопоследовательностью (например, бегущая строка при просмотре телеви- 
зионных новостей). Текст сцены — текстовая область, которая была захвачена камерой 
как часть сцены (например, надписи на футболках спортсменов или дорожных знаках). 

При извлечении текстовой информации из видеопоследовательностей одной из 
важных процедур является обнаружение текстовых областей. Существует множество 
алгоритмов и методов для ее выполнения, однако до настоящего времени нет оконча- 
тельного решения этой задачи. 
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Большинство из предложенных методов обнаружения текстовых областей исполь- 
зуют в качестве признаков текста информацию о цвете, контурах и текстурных особен- 
ностях соответствующего изображения. Чтобы воспользоваться этой информацией, 
то есть описать текст и отличить его от фона, некоторые исследователи применяют 
эвристические правила, в то время как другие используют метод машинного обучения на 
реальных данных. В последнее время были предложены некоторые гибридные подходы. 

Многие из существующих эвристических методов, полученные из области анализа 
документов, основанные на однородности цвета или интенсивности символов. Они 
обнаруживают области символов в изображении, а затем группируют их в слова и 
строки текста на основе геометрических ограничений. Эти методы, известные также 
как методы связных компонент [1-3], удовлетворительно работают только на высокока- 
чественных изображениях с простым фоном при известном цвете текста, что не имеет 
места в случае с видеоизображениями. Кроме того, текст в видеоизображениях часто 
искажается в цвете из-за сжатия видео. 

Некоторые другие эвристические методы обнаруживают текст на основании ин- 
формации о контурах. В [4] применяется горизонтально дифференцирующий фильтр, 
размером 3х3 пикселя, к исходному изображению с последующей бинаризацией с со- 
ответствующим порогом. В [5] предлагают метод, основанный на карте контуров, соз- 
данной с помощью оператора Собеля, которая сглаживается с помощью специальных 
фильтров и подвергается обработке с использованием морфологических операций. В [6] 
и [7] предлагается использование локального порога на карте интенсивности контура, 
созданной с помощью оператора Собеля. В [8] используется карта контуров, полученная 
с помощью детектора Канни, морфологические операции и анализ проекций обнаружен- 
ных областей на оси координат. В [9] вместо использования карты контуров для об- 
наружения текстовых областей предлагается использование карты перехода, сгенериро- 
ванной на основании изменения интенсивности и насыщенности. Для проверки принад- 
лежности пикселя к текстовой области применяется эвристическое правило, основанное 
на использовании различных локальных бинарных образов. Эти эвристические методы 
доказали свою эффективность для конкретных приложений с высококонтрастными изоб- 
ражениями и относительно однородным фоном. Однако их использование ограничи- 
вается тем, что много параметров должны быть оценены экспериментально. 

Целью данной работы является разработка алгоритма и методики обнаружения 
текстовых областей на изображениях с неоднородным фоном. 


Обнаружение текстовых областей 


Видеопоследовательность рассматривается как набор кадров (отдельных изобра- 
жений). Обрабатываемое изображение может иметь ряд особенностей: низкое разре- 
шение, различный размер шрифтов текста на одном изображении, деформация надписей 
(поворот, расположение надписи по дуге, изменение размера символов от начала к 
концу надписи), слабый контраст между текстом и фоном, неоднородный фон с резкими 
перепадами, блики источников света на поверхностях объектов и т.д., что затрудняет 
обнаружение текстовых областей. Для обнаружения текстовых областей с использова- 
нием градиентных методов мы используем подход, базирующийся на работах [8], [10]. 
Этот подход основывается на том, что текстовые строки имеют сильные вертикальные 
контуры, расположенные в горизонтальном направлении с высокой плотностью. Исполь- 
зование информации о контуре для обнаружения текстовых областей оправдано тем, что 
для читабельности текст должен иметь достаточно четкие контуры. 
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Рисунок 1 — Граф-схема алгоритма обнаружения текстовых областей 
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В работе предлагается двухэтапная схема и алгоритм обнаружения текстовых 
областей в видеопоследовательностях (рис. 1), основанные на методах и алгоритмах, 
предложенных в [10], и рассматривается первый этап. 

На первом (эвристическом) этапе обнаружения текстовых областей в видео- 
последовательностях реализованы алгоритмы обнаружения текстовых областей и 
текстовых строк (столбцов) с использованием градиентных методов или вейвлет- 
преобразований на основе анализа перепадов интенсивности в локальных областях 
изображения. В результате осуществляется отбор областей изображений, в которых 
может быть текстовая информация. 

Для получения карты контуров исходного изображения (рис. 2а) преобразовываем 
его в полутоновое изображение и используем оператор Канни (рис. 26). В идеале полу- 
чаем изображение с набором единичных пикселей контура (белых) и остальных пиксе- 
лей, равных нулю (черных). В дальнейшем используем пространственную фильтрацию 
контурного изображения с помощью скользящей квадратной маски (рис. 2в). 
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ЗЕВ\М!СЕ$ ь АЛСЕЗ = 44а ЗЕРМСЕВ 
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: ы - Е 


а) 6) в) 
Рисунок 2 — Пример обнаружения текстовых областей с использованием 
градиентных методов: а) исходное изображение; 6) контурное изображение 
по методу Канни; в) контурное изображение после фильтрации 
с помощью скользящей маски 


Один из перспективных подходов к определению свойств объектов на изображении 
основывается на результатах мультимасштабного контурного анализа, который может 
проводиться с разной детальностью в зависимости от требований к извлекаемой 
информации. Для мультимасштабного контурного анализа обычно используют 
непрерывное вейвлет-преобразование (ВП) [11] с действительными симметричными 
нечетными вейвлет-функциями (ВФ), (х)= —\у(—х), которые имеют компактный или 
эффективный носитель, в частности, вейвлеты Гаусса, базисные функции гиперболи- 
ческого вейвлет-преобразования (ГВП) и др. [11-13]. Методика автоматического выбора 
масштаба на основе анализа интегральной функции распределения энергии по масштабам 
вейвлет-преобразования (ИРЭМ) предложена в [13]. Масштаб выбирается как абсцисса 
точки последнего минимума (или точки последнего перегиба) кривой ИРЭМ. Если 
минимум или перегиб отсутствуют в рассматриваемом диапазоне масштабов, то в данной 
строке нет текстовой информации, и она исключается из дальнейшего анализа. 

Для локализации объектов на изображении, как правило, применяют построчную 
(либо постолбцовую) обработку, что позволяет обрабатывать функцию интенсивности в 
строке (столбце) как одномерный сигнал. Для расширения пространственной локализа- 
ции и подчеркивания перепадов интенсивности могут применяться действительные 
вейвлеты Гаусса, Хаара, базисные функции гиперболического вейвлет-преобразования 
ит.д. [11-13]. 

Пример обнаружения текстовых областей с использованием вейвлет-преобразо- 
ваний представлен на рис. 3. 
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Рисунок 3 — Пример обнаружения текстовых областей с использованием вейвлет- 
преобразования Хаара: а) исходное изображение; 6) полученный результат; 
в) ВП строки изображения с масштабами от 1 до 64; г) график функции ИРЭМ 
[Е|=Х$5), $ — масштаб ВП; д) ВП строки изображения с масштабом 33 


Для улучшения отбора текстовых областей на первом этапе после выделения 
контуров выполняется морфологическая операция наращивания областей, чтобы 
объединить контуры символов каждой текстовой строки. При этом используется 
горизонтальный структурный элемент, размер которого зависит от предполагаемого 
максимального расстояния между символами. Также используется морфологическая 
операция «открытие» для удаления шума в предполагаемых текстовых областях. 
Полученные на данном этапе области вписываются в прямоугольник (рис. 4) и 
являются кандидатами для проверки на принадлежность к тексту на втором этапе. 


Рисунок 4 — Пример обнаружения текстовых областей с использованием 
градиентных методов: а) морфорлогическое открытие изображения; 
6) полученный результат 
В дальнейшем для устранения шума, отделения строк и столбцов текста внутри 
прямоугольной области используем метод горизонтальных и вертикальных проекций. 
Выполняем соответствующее проецирование и отбрасываем строки (столбцы), для ко- 
торых полученная сумма не превышает заданного порога. Затем считаем, что верти- 
кально разделенные части области остаются связанными, если расстояние между ними 
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меньше порога, который зависит от высоты Й текстовой строки кандидата (обычно он 
равен 1.5й). Данная процедура вертикального и горизонтального проецирования пов- 
торяется до тех пор, пока не будет достигнуто устойчивое состояние. 


НЫ Ш 


Е | СНАММЕЬ 9 
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Рисунок 5 — Примеры обнаружения текстовых строк (столбцов) 


При использовании вейвлет-преобразования на первом этапе при сложном и 
неоднородном фоне и различных размерах шрифтов текста автоматический выбор 
масштаба может быть не эффективным. В этом случае производится обработка исходного 
изображения с несколькими (обычно от 3 до 5) различными масштабами (на рис. 1 этому 
соответствует ветвь с оператором «изменение масштаба») и полученные результаты 
объединяются. Такой подход позволяет обнаруживать текстовые области с существенно 
различающимися размерами шрифта, что в целом повышает качество обнаружения. 


Экспериментальные результаты 


Для экспериментов использовалась выборка, состоящая из набора более 
200 изображений, полученных из новостных или рекламных телевизионных роликов, 
а также изображений вагонов, автомобилей и т.д. Пример обнаружения текста 
представлен на рис. 6. 
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Рисунок 6 — Примеры обнаружения текстовых областей 


Для оценки точности обнаружения текстовых областей использованы меры 
точности и отзыва [10]. 

Мера точности (Ргес151оп) определяется 

Ргес11оп = (ОТР / ОР)х100%, 

где ОТР — количество обнаруженных текстовых областей; ОР — обнаруженные 
области (текстовые, нетекстовые). 

Мера отзыва Кеса| определяется 

БесаП = (ОТР / (ОТР+НОТР))х100%, 


где ОТР — количество обнаруженных текстовых областей; НОТР-— количество 
текстовых областей, которые не обнаружены. 
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Результаты оценки точности обнаружения текстовых областей представлены 
в табл. 1. 


Таблица 1 — Оценки точности обнаружения текстовых областей 


Название алгоритма Мера точности (%) Мера отзыва (%) 
Градиентный 58 87 
Градиентный с морфологией 59 90 
С использованием ВП 78 91 


Полученные результаты показывают, что использование ВП даже на первом 
этапе обеспечивает точность обнаружения на 18% — 20% выше, чем остальные 
алгоритмы. Градиентный алгоритм обнаружения текстовых областей находит слишком 
маленькие предполагаемые текстовые области, в то время как алгоритм с использованием 
ВП рассматривает их как единую область. Поэтому при использовании градиентного 
алгоритма часто обнаруживаются нетекстовые области. 

На втором этапе двухэтапной схемы обнаружения текстовых областей в видеопос- 
ледовательностях оценивается вероятность принадлежности к тексту каждого пикселя 
отобранных на первом этапе областей с использованием классификатора (нейронной 
сети, машины опорных векторов и т.д.). По результатам оценки с использованием эм- 
пирически установленного порога принимается окончательное решение о наличии тек- 
стовой информации в данной области и уточняются ее границы. В настоящий момент 
продолжаются исследования по применению классификаторов на основе нейронной сети 
или машины опорных векторов для повышения точности распознавания текстовых 
областей в видеопоследовательностях. 


Выводы 


Двухэтапная схема обнаружения текстовых областей в видеопоследовательностях 
и использование вейвлет-преобразования на этапе получения контуров символов в 
сочетании с применением морфологических операций позволяет повысить точность 
локализации текстовых областей, что в конечном итоге способствует повышению 
эффективности систем распознавания текстовой информации. 

Использование автоматического выбора масштаба вейвлет-преобразования или 
обработка изображения с разными масштабами вейвлет-преобразований позволяет 
улучшить точность обнаружения текстовых областей на неоднородном фоне. 

Предложенный алгоритм и методика выделения текстовых областей на не- 
однородном фоне в видеопоследовательностях может быть полезна для специалистов, 
занимающихся компьютерной обработкой и распознаванием изображений. 
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А.А.МКоепкКо, Геп Т.К. №гиуеп 


Тем Кезоп Раеснпоп т Уаео Етатеу 

п 11$ рарег уе сопу4ег Фе ргоЫет оР {ехЕ геглоп$ деесйНоп оп а поп-ипТогт 
БасКотоип4 ш у14ео Еатез. [ 1$ ргорозе4 Ше (\о-$%асе зсвете, Фе аеогт ап Фе 
(есбттаче Гог ащесйоп оЁ{ех( гес1оп$. Тре ИгзЕ $асе 15 4езсте4 ш аеап. 

Сотраге4 у ех1$Нп® а[>огИ $ ап4 арргоасВез, 1 1$ ргорозед ю изе ю шее фе 
е4еез оЁ свагацег$ оЁ {ех( сопипиой$ \у’ауе! тап$Ююгт \Иб ацютайс з@есноп оЁ зсае ог 
Цегануе ргосеззте аЁ Чегепе зса]ез аЁ фе Втзё 5асе. Мех ро$(-ргосеззте ул ШгезВо!4 
ап зеагсв ог соппесе сотропеп сап з@есё а гесапощШаг агеа сомашше Фе (еж 
шРогпабоп. Могрвою2л1са| орегайопз аге изе ю ппргоуе ве диаШу о {ех( теслоп д&есйоп. 

Тре ехрегитета! {е5Ипе оЁ Базе, у №мсВ сощашз$ оуег 100 птазез, 15 таде. Тве 
тези$ зВо\ Ша изше Фе \ууауее( Шапзогт, еуеп аё Фе ИгзЕ $асе, ргоу14ез дщесйоп 
ассигасу ю 18% — 20% шерег ап этаФепЕ а]>ог1тпз. 

АЕ Фе зесопа $з{асе, с1азз1Нег 1$ изе4 1ю 4ес14е 1 теслоп$ 4епуе4 ап Фе Нг$Е $асе 
аге {ехЕ ге21оп$. Сштепйу, $41е$ оп Фе изе оЁ с1аз$1Негз Базе4 оп пеига1 пебуогК$ ог 
заррогё уесюг тасбтез юг пиргоуше Ше гесосптюоп ассигасу оЁ {ех( гег1оп$ ш у14ео 
Кгатез аге гос оп. 


Статья поступила в редакцию 07.06.2012. 
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